iT邦幫忙

2021 iThome 鐵人賽

DAY 11
1
自我挑戰組

初次接觸爬蟲的學習系列 第 11

網站不想你爬

  • 分享至 

  • xImage
  •  

這邊想說一下,關於上一篇有講到我利用superagent()來獲得網站資訊,結果抓取失敗。這是因為不一定所有網站都願意其他人隨便沿用自己的東西,所以在網站後台可以讓人設定禁止令之類的,防止他人搜索。
那要如何知道網站是否同意進行搜索,可以在網址根目錄後加上robots.txt就會看到文字檔紀錄,像是用戶代理、禁止目錄…等等。下面是我上一篇失敗網站的文字檔。
https://ithelp.ithome.com.tw/upload/images/20210916/20141074U72mrIxHcN.png
總而言之,就是禁止了很多東西,導致我抓取失敗了!
之後我稍微補充下robots.txt的基本應用吧。

常見用詞:

  • User-agent => 對於那些搜索引擎生效
  • Disallow => 禁止進入的目錄,需指名路徑
  • Sitemap => 網站內sitemap檔案位置,須完整路徑

常見應用:

  1. 允許所有引擎檢索
    User-agent:*
    Disallow:
  2. 拒絕所有引擎檢索
    User-agent:*
    Disallow:/
  3. 拒絕所有引擎檢索/users/下所有內容
    User-agent:*
    Disallow:/users/
  4. 拒絕Google搜圖檢索/images/下所有內容
    User-agent:Googlebot-image
    Disallow:/images/

上一篇
想要爬個資料也困難重重
下一篇
檢查資訊內容(我也不知道我在做啥,不要理我T^T)
系列文
初次接觸爬蟲的學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言